Telegram Group & Telegram Channel
Training language models to follow instructions with human feedback [2022]

Те, кто на канал подписан давно, знают, что я делаю обзоры и на классику. RLHF уже можно считать таковой, но я хотел бы взглянуть на эту работу под необычным углом.

Вспомним базовый механизм:

1) Supervised Finetuning - модель файнтюнят на датасете prompt -> output, где output сгенерирован человеком
2) Для набора промптов генерируют пачки вариантов output, далее человек их сортирует, показывая, какие лучше. Учим Reward Model (RM) - модель-энкодер, которая по тексту говорит, насколько он 👍
3) Сам RL - с помощью PPO учим генератор токенов выдавать такую последовательность, которую предпочтёт RM

Итак, теперь давайте проведём RL-аналогию с Го. Действия - это токены или ходы в игре. Состояние - это контекст - весь уже сгенерированный текст или состояние доски в Го. Награда - в случае текстов это выход из Reward Model, а в Го это простая программа, которая со 100% точностью считает, кто выиграл в конце игры.

В Го мы наблюдаем стандартный феномен - это "NP-задача", в которой элементарно понять, выиграна ли игра в конце, но очень сложно сгенерировать траекторию. На доске в 19x19 клеточек генератор учат на миллионах игр, выжимая из RM кучу информации и пытаясь ей угодить. И несмотря на это, на практике приблизиться к RM невозможно, хотя человека обойти всё же удаётся.

Возвращаемся к текстовому RLHF - чем он отличается от Го? Тут несопоставимо более сложное пространство состояний и действий, чем у настольной игры, то есть разрыв между RM и генератором должен быть более существенный. Да, над разрешением проблемы работают, и Chain of Thoughts / Tree of Thoughts / o1 как раз про это - модель лучше умеет понимать по тексту, хороший ли он, и мы ищем способы вытащить из неё крутые траектории.

Но есть более фундаментальная проблема - может быть, вы догадались, это RM. Представим, что произошло нечто невероятное и наш генератор сравнялся с RM по своей крутости - аналог того, что мы в Го построили бы полное дерево по всем 10^170 состояниям. Давайте подумаем, насколько текстовая RM "крутая" вещь?

Фундаментально, её "крутость" ограничена теми данными, на которых она обучалась. У нас есть размеченный людьми датасет из предпочтений ответов, сгенерированных самим генератором (или может быть людьми в каких-то датасетах). Думаю, можно предполагать, что RM по крутости близка к LLM, делающей вывод о готовом ответе. Измеряется крутость разными вещами - например, по уровню запоминания информации она сильно лучше человека, но далека от самого интернета - иначе бы она хотя бы знала все статьи с arxiv. С логикой и решением новых задач наблюдаются сложности.

На мой взгляд, это вполне легко объясняется - у вас есть огромный трансформер, обучающийся предсказывать крутость текста, причём тексты большие, а сэмплов явно не миллиарды (уже на этапе RLHF). У RM есть 2 варианта - закодировать логический вывод, способность обучаться и человеческий интеллект во всех его проявлениях или выучить простые статистические паттерны того, какие комбинации токенов в каком примерно порядке хорошо, а какие плохо. Наиболее простое решение - второе.

Это очень хорошо видно на тестировании LLM на задаче Монти-Холла. Вы даёте модели любую задачку про 3 двери, машину и 2 козы, а у неё в 99.999% обучающих данных с таким контекстом содержится ответ "выбрать другую дверь". Вот она и выбирает другую дверь, какую бы вы модификацию задачи не дали.

Для того, чтобы модель пользовалась логикой, а не релаксированным запоминанием, нужен другой баланс объёма модели, кол-ва данных и, главное, характера данных - необходимы "adversarial"-образцы, в которых ответ неправильный только из-за логической ошибки, хотя вроде бы последовательность очень близка к верной. Тогда мы, может быть, приблизим LLM к чему-то мыслящему.

@knowledge_accumulator



tg-me.com/knowledge_accumulator/219
Create:
Last Update:

Training language models to follow instructions with human feedback [2022]

Те, кто на канал подписан давно, знают, что я делаю обзоры и на классику. RLHF уже можно считать таковой, но я хотел бы взглянуть на эту работу под необычным углом.

Вспомним базовый механизм:

1) Supervised Finetuning - модель файнтюнят на датасете prompt -> output, где output сгенерирован человеком
2) Для набора промптов генерируют пачки вариантов output, далее человек их сортирует, показывая, какие лучше. Учим Reward Model (RM) - модель-энкодер, которая по тексту говорит, насколько он 👍
3) Сам RL - с помощью PPO учим генератор токенов выдавать такую последовательность, которую предпочтёт RM

Итак, теперь давайте проведём RL-аналогию с Го. Действия - это токены или ходы в игре. Состояние - это контекст - весь уже сгенерированный текст или состояние доски в Го. Награда - в случае текстов это выход из Reward Model, а в Го это простая программа, которая со 100% точностью считает, кто выиграл в конце игры.

В Го мы наблюдаем стандартный феномен - это "NP-задача", в которой элементарно понять, выиграна ли игра в конце, но очень сложно сгенерировать траекторию. На доске в 19x19 клеточек генератор учат на миллионах игр, выжимая из RM кучу информации и пытаясь ей угодить. И несмотря на это, на практике приблизиться к RM невозможно, хотя человека обойти всё же удаётся.

Возвращаемся к текстовому RLHF - чем он отличается от Го? Тут несопоставимо более сложное пространство состояний и действий, чем у настольной игры, то есть разрыв между RM и генератором должен быть более существенный. Да, над разрешением проблемы работают, и Chain of Thoughts / Tree of Thoughts / o1 как раз про это - модель лучше умеет понимать по тексту, хороший ли он, и мы ищем способы вытащить из неё крутые траектории.

Но есть более фундаментальная проблема - может быть, вы догадались, это RM. Представим, что произошло нечто невероятное и наш генератор сравнялся с RM по своей крутости - аналог того, что мы в Го построили бы полное дерево по всем 10^170 состояниям. Давайте подумаем, насколько текстовая RM "крутая" вещь?

Фундаментально, её "крутость" ограничена теми данными, на которых она обучалась. У нас есть размеченный людьми датасет из предпочтений ответов, сгенерированных самим генератором (или может быть людьми в каких-то датасетах). Думаю, можно предполагать, что RM по крутости близка к LLM, делающей вывод о готовом ответе. Измеряется крутость разными вещами - например, по уровню запоминания информации она сильно лучше человека, но далека от самого интернета - иначе бы она хотя бы знала все статьи с arxiv. С логикой и решением новых задач наблюдаются сложности.

На мой взгляд, это вполне легко объясняется - у вас есть огромный трансформер, обучающийся предсказывать крутость текста, причём тексты большие, а сэмплов явно не миллиарды (уже на этапе RLHF). У RM есть 2 варианта - закодировать логический вывод, способность обучаться и человеческий интеллект во всех его проявлениях или выучить простые статистические паттерны того, какие комбинации токенов в каком примерно порядке хорошо, а какие плохо. Наиболее простое решение - второе.

Это очень хорошо видно на тестировании LLM на задаче Монти-Холла. Вы даёте модели любую задачку про 3 двери, машину и 2 козы, а у неё в 99.999% обучающих данных с таким контекстом содержится ответ "выбрать другую дверь". Вот она и выбирает другую дверь, какую бы вы модификацию задачи не дали.

Для того, чтобы модель пользовалась логикой, а не релаксированным запоминанием, нужен другой баланс объёма модели, кол-ва данных и, главное, характера данных - необходимы "adversarial"-образцы, в которых ответ неправильный только из-за логической ошибки, хотя вроде бы последовательность очень близка к верной. Тогда мы, может быть, приблизим LLM к чему-то мыслящему.

@knowledge_accumulator

BY Knowledge Accumulator


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/knowledge_accumulator/219

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

That strategy is the acquisition of a value-priced company by a growth company. Using the growth company's higher-priced stock for the acquisition can produce outsized revenue and earnings growth. Even better is the use of cash, particularly in a growth period when financial aggressiveness is accepted and even positively viewed.he key public rationale behind this strategy is synergy - the 1+1=3 view. In many cases, synergy does occur and is valuable. However, in other cases, particularly as the strategy gains popularity, it doesn't. Joining two different organizations, workforces and cultures is a challenge. Simply putting two separate organizations together necessarily creates disruptions and conflicts that can undermine both operations.

For some time, Mr. Durov and a few dozen staffers had no fixed headquarters, but rather traveled the world, setting up shop in one city after another, he told the Journal in 2016. The company now has its operational base in Dubai, though it says it doesn’t keep servers there.Mr. Durov maintains a yearslong friendship from his VK days with actor and tech investor Jared Leto, with whom he shares an ascetic lifestyle that eschews meat and alcohol.

Knowledge Accumulator from ye


Telegram Knowledge Accumulator
FROM USA